用一個比較簡單的與常見的使用案例來做範例,假設某一個公司的商業模型如下:
在這種情況下,大部分的資料倉儲需求可以用Fivetran + Snowflake + dbt來完成,而我們也可以假設已完成了一個簡單的資料倉庫項目。
在這種狀況下,建構資料激活層則是上述資料棧的邏輯衍生,也是最容易體現資料倉庫的價值的辦法。在維持低人力成本與快速完成的前提下,rETL工具則是最合理的選擇。
為不熟悉Fivetran的人解釋一下:Fivetran 是一個用於現代數據棧的資料擷取的一體化解決方案,主要提供許多鏈接SaaS工具和數據庫的預建資料鏈接器(Data Connectors)。而預先配置好的鏈接器,可將資料從各種來源提取到數據倉庫或數據湖。
對使用dbt的人來說,除了本身的功能以外,最大的賣點就是可以通過Fivetran預設的資料模型package來簡單完成資料倉庫裡的資料模型。
因為這篇文章的主題是資料激活層和rETL,我們就假設所有的客戶級資料是用了Fivetran的hubspot_source
與hubspot
來完成:
hubspot_source
:對應了資料整合層(Data Integration / Staging Layer)hubspot
:對應了資料集市層對 dbt 或 data 有興趣 :wave:?歡迎加入 dbt community 到 #local-taipei 找我們,也有實體 Meetup 請到 dbt Taipei Meetup 報名參加